隨著信息技術(shù)的逐漸發(fā)展,數(shù)據(jù)出現(xiàn)指數(shù)型的增長。我們知道數(shù)據(jù)的種類很多,分類方式也有很多種,有以用戶對象來分類的,如政務(wù)數(shù)據(jù)、行業(yè)數(shù)據(jù)、個人數(shù)據(jù);有以數(shù)據(jù)存儲形式分類的,如先前推文介紹過的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。還有一種分類方法,則是將數(shù)據(jù)分為冷數(shù)據(jù)、溫數(shù)據(jù)和熱數(shù)據(jù),難道數(shù)據(jù)還有溫度?
數(shù)據(jù)為什么要區(qū)分“冷”和“熱”?
根據(jù)數(shù)據(jù)被訪問使用的頻次,數(shù)據(jù)可以被分為熱數(shù)據(jù)、溫數(shù)據(jù)和冷數(shù)據(jù)。顯然數(shù)據(jù)肯定是沒有溫度的,那么為什么會有“冷”、“熱”的說法呢?
熱數(shù)據(jù)
熱數(shù)據(jù)是需要被計算節(jié)點頻繁訪問的在線類數(shù)據(jù),比如可以是半年以內(nèi)的數(shù)據(jù),用戶經(jīng)常會查詢它們,適合放在數(shù)據(jù)庫中存儲,比如MySql、MongoDB和HBase。
冷數(shù)據(jù)
冷數(shù)據(jù)是指離線類不經(jīng)常訪問的數(shù)據(jù),用于災(zāi)難恢復(fù)的備份或者因為要遵守法律規(guī)定必須保留一段時間,比如企業(yè)備份數(shù)據(jù)、業(yè)務(wù)與操作日志數(shù)據(jù)、話單與統(tǒng)計數(shù)據(jù)。通常會存儲在性能較低、價格較便宜的文件系統(tǒng)里,適用于離線分析,比如機器學(xué)習中的模型訓(xùn)練或者大數(shù)據(jù)分析。
圖:冷數(shù)據(jù)和熱數(shù)據(jù)的區(qū)別,來源于微博@聯(lián)想企業(yè)級服務(wù)
總結(jié)一下,熱數(shù)據(jù)就是訪問量多的數(shù)據(jù),而冷數(shù)據(jù)則基本沒有什么存在感和訪問量。比如在訂單管理中,熱數(shù)據(jù)就是指3個月以內(nèi)的訂單數(shù)據(jù),查詢時效性較高;而冷數(shù)據(jù)就是指1年前的訂單數(shù)據(jù),只會有偶爾的查詢需求,其他時間幾乎不會被用到。
其實區(qū)分冷熱數(shù)據(jù)的根本目的,在于能節(jié)省數(shù)據(jù)存儲成本和提升在線數(shù)據(jù)查詢性能,即控制成本。
為什么這么說?因為通常情況下,為了支持熱數(shù)據(jù)的操作特性,需要有較好的硬件配置,比如高性能CPU、大內(nèi)存、SSD硬盤等等。隨著時間的推移,系統(tǒng)里會積累越來越多的歷史數(shù)據(jù),如果依然采用高配置機器來存放這些使用頻率非常低的數(shù)據(jù),勢必會帶來非常高的成本。當然,如果數(shù)據(jù)量很小或者不計成本,那完全不需要考慮冷熱區(qū)分,采用一個單體系統(tǒng)就可以應(yīng)對所有事情了。
數(shù)據(jù)如何冷熱分離?
相信看到這里,大家對冷數(shù)據(jù)、溫數(shù)據(jù)和熱數(shù)據(jù)的概念已經(jīng)很清晰了,那么有人可能會好奇,對于不同“溫度”的數(shù)據(jù),平時是如何存儲的呢?
由于冷數(shù)據(jù)和熱數(shù)據(jù)的訪問頻次不同,就導(dǎo)致了在數(shù)據(jù)庫搭建的各自不同:熱數(shù)據(jù)因為訪問頻次需求大,效率要求高,所以就近計算和部署;冷數(shù)據(jù)訪問頻次低,效率要求慢,可以做集中化部署,而基于大規(guī)模存儲池里,可以對數(shù)據(jù)進行壓縮、去重等降低成本的方法。
總結(jié)成一句話就是:熱數(shù)據(jù)就近計算,冷數(shù)據(jù)集中存儲。
從存儲形式來說,一般情況冷數(shù)據(jù)存儲在磁帶、光盤,目前發(fā)展比較好的是藍光光盤。熱數(shù)據(jù)一般存放在SSD中,存取速度快,而溫數(shù)據(jù)可以存放在7200轉(zhuǎn)的硬盤。
目前比較常見的冷熱分離方案是將冷熱數(shù)據(jù)分離到兩套不同的系統(tǒng),這兩套系統(tǒng)擁有不同的存儲特性、訪問方式等,從而在保證熱數(shù)據(jù)訪問性能的同時,將冷數(shù)據(jù)的成本降低下來。
相比單體系統(tǒng)而言,將冷熱數(shù)據(jù)分離到兩個系統(tǒng)中,必然會帶來整體的復(fù)雜性,需要在性能、成本、復(fù)雜度等因素之間做的一個權(quán)衡。實踐中,通常需要結(jié)合具體的業(yè)務(wù),考慮下面幾件事:
冷熱數(shù)據(jù)系統(tǒng)的選型
確定冷熱數(shù)據(jù)分割線
如何進行數(shù)據(jù)的遷移
如何應(yīng)對跨系統(tǒng)的查詢
數(shù)據(jù)作為企業(yè)的核心資產(chǎn)之一雖然已受到廣泛的認可和重視,但是分析技術(shù)的落后尚不具備充分提取冷數(shù)據(jù)價值的能力,因此很多公司對利用率高的熱數(shù)據(jù)重視而忽視冷數(shù)據(jù),這也符合常規(guī)企業(yè)成本的考量。隨著數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的進步,歷史數(shù)據(jù)的可用價值將得到顯著的提升,這樣冷數(shù)據(jù)的存儲需求會迎來快速增長。隨著技術(shù)發(fā)展,會有越來越多的系統(tǒng)走向冷熱分離系統(tǒng),從而簡化整體的復(fù)雜性,在業(yè)務(wù)層表現(xiàn)為統(tǒng)一的訪問方式。
更多資訊,請關(guān)注“成都吉福匯”,服務(wù)熱線:400 028 4366/028-85538251